从汽车和交通检测到自动驾驶汽车系统,可以将街道对象的对象检测应用于各种用例。因此,找到最佳的对象检测算法对于有效应用它至关重要。已经发布了许多对象检测算法,许多对象检测算法比较了对象检测算法,但是很少有人比较了最新的算法,例如Yolov5,主要是侧重于街道级对象。本文比较了各种单阶段探测器算法; SSD MobilenetV2 FPN-Lite 320x320,Yolov3,Yolov4,Yolov5L和Yolov5S在实时图像中用于街道级对象检测。该实验利用了带有3,169张图像的修改后的自动驾驶汽车数据集。数据集分为火车,验证和测试;然后,使用重新处理,色相转移和噪音对其进行预处理和增强。然后对每种算法进行训练和评估。基于实验,算法根据推论时间及其精度,召回,F1得分和平均平均精度(MAP)产生了不错的结果。结果还表明,Yolov5L的映射@.5 of 0.593,MobileNetV2 FPN-Lite的推理时间最快,而其他推理时间仅为3.20ms。还发现Yolov5s是最有效的,其具有Yolov5L精度和速度几乎与MobilenetV2 FPN-Lite一样快。这表明各种算法适用于街道级对象检测,并且足够可行,可以用于自动驾驶汽车。
translated by 谷歌翻译
本文旨在更深入地研究各种可用的模型,包括:InceptionV3,InceptionResnetv2,MobileNetV2和EdgitionNetB7使用转移学习,以对日本动画风格的角色面对面进行分类。本文表明,有效网络-B7的精度率最高,而85.08 \%top-1的精度,其次是MobileNetV2,其准确结果略有较低,但其益处的推理时间较低,所需参数数量较少。本文还使用了一些射击的学习框架,特别是原型网络,该网络可产生不错的结果,可以用作传统转移学习方法的替代方法。
translated by 谷歌翻译
Biological systems often choose actions without an explicit reward signal, a phenomenon known as intrinsic motivation. The computational principles underlying this behavior remain poorly understood. In this study, we investigate an information-theoretic approach to intrinsic motivation, based on maximizing an agent's empowerment (the mutual information between its past actions and future states). We show that this approach generalizes previous attempts to formalize intrinsic motivation, and we provide a computationally efficient algorithm for computing the necessary quantities. We test our approach on several benchmark control problems, and we explain its success in guiding intrinsically motivated behaviors by relating our information-theoretic control function to fundamental properties of the dynamical system representing the combined agent-environment system. This opens the door for designing practical artificial, intrinsically motivated controllers and for linking animal behaviors to their dynamical properties.
translated by 谷歌翻译
我们提出了一个新的图神经网络(GNN)模块,该模块基于最近提出的几何散射变换的松弛,该变换由图形小波滤波器组成。我们可学习的几何散射(腿)模块可以使小波的自适应调整能够鼓励乐队通道特征在学习的表示中出现。与许多流行的GNN相比,我们的腿部模块在GNN中的结合能够学习长期图形关系,这些GNN通常依赖于邻居之间的平滑度或相似性来编码图形结构。此外,与竞争性GNN相比,其小波先验会导致简化的架构,学到的参数明显少得多。我们证明了基于腿的网络在图形分类基准上的预测性能,以及在生化图数据探索任务中学到的功能的描述性质量。我们的结果表明,基于腿部的网络匹配或匹配流行的GNN,以及在许多数据集上,尤其是在生化域中的原始几何散射结构,同时保留了手工制作的(非学习)几何散射的某些数学特性。
translated by 谷歌翻译
文本分类在许多真实世界的情况下可能很有用,为最终用户节省了很多时间。但是,构建自定义分类器通常需要编码技能和ML知识,这对许多潜在用户构成了重大障碍。为了提高此障碍,我们介绍了标签侦探,这是一种免费的开源系统,用于标记和创建文本分类器。该系统对于(a)是一个无代码系统是独一无二的分类器在几个小时内,(c)开发用于开发人员进行配置和扩展。通过开放采购标签侦探,我们希望建立一个用户和开发人员社区,以扩大NLP模型的利用率。
translated by 谷歌翻译
软机器人抓手有助于富含接触的操作,包括对各种物体的强大抓握。然而,软抓手的有益依从性也会导致重大变形,从而使精确的操纵具有挑战性。我们提出视觉压力估计与控制(VPEC),这种方法可以使用外部摄像头的RGB图像施加的软握力施加的压力。当气动抓地力和肌腱握力与平坦的表面接触时,我们为视觉压力推断提供了结果。我们还表明,VPEC可以通过对推断压力图像的闭环控制进行精确操作。在我们的评估中,移动操纵器(来自Hello Robot的拉伸RE1)使用Visual Servoing在所需的压力下进行接触;遵循空间压力轨迹;并掌握小型低调的物体,包括microSD卡,一分钱和药丸。总体而言,我们的结果表明,对施加压力的视觉估计可以使软抓手能够执行精确操作。
translated by 谷歌翻译
人们经常通过双手施加压力来与周围环境互动。虽然可以通过在手和环境之间放置压力传感器来测量手动压力,但这样做可以改变接触力学,干扰人类触觉感知,需要昂贵的传感器,并且对大型环境的扩展很差。我们探索使用常规的RGB摄像头推断手动压力的可能性,从而使机器对无爆炸的手和表面的手动压力感知。中心洞察力是,通过手的施加压力会导致内容丰富的外观变化。手共有生物力学特性,从而产生相似的可观察现象,例如软组织变形,血液分布,手姿势和铸造阴影。我们收集了36位参与者的视频,这些参与者具有不同的肤色,向仪器的平面表面施加压力。然后,我们训练了一个深层模型(压力visionnet),以从单个RGB图像中推断出压力图像。我们的模型会在培训数据外降低给参与者的压力,并且表现优于基准。我们还表明,我们的模型的输出取决于手的外观,并在接触区域附近投射阴影。总体而言,我们的结果表明,可以使用以前未观察到的人手的出现来准确推断施加压力。数据,代码和模型可在线提供。
translated by 谷歌翻译
在这项工作中,我们将时间系列预测解决为计算机视觉任务。我们将输入数据捕获为图像并培训模型以产生后续图像。这种方法导致预测分布而不是点的值。为了评估我们方法的稳健性和质量,我们检查各种数据集和多个评估指标。我们的实验表明,我们的预测工具对循环数据有效,但对于股票价格的不规则数据有点少。重要的是,在使用基于图像的评估指标时,我们发现我们的方法以优于各种基线,包括Arima,以及我们的深度学习方法的数值变化。
translated by 谷歌翻译
在这项工作中,我们将时间系列预测解决为计算机视觉任务。我们将输入数据捕获为图像并培训模型以产生后续图像。这种方法导致预测分布而不是点的值。为了评估我们方法的稳健性和质量,我们检查各种数据集和多个评估指标。我们的实验表明,我们的预测工具对循环数据有效,但对于股票价格的不规则数据有点少。重要的是,在使用基于图像的评估指标时,我们发现我们的方法以优于各种基线,包括Arima,以及我们的深度学习方法的数值变化。
translated by 谷歌翻译
Deep Neural Networks (DNNs) are analyzed via the theoretical framework of the information bottleneck (IB) principle. We first show that any DNN can be quantified by the mutual information between the layers and the input and output variables. Using this representation we can calculate the optimal information theoretic limits of the DNN and obtain finite sample generalization bounds. The advantage of getting closer to the theoretical limit is quantifiable both by the generalization bound and by the network's simplicity. We argue that both the optimal architecture, number of layers and features/connections at each layer, are related to the bifurcation points of the information bottleneck tradeoff, namely, relevant compression of the input layer with respect to the output layer. The hierarchical representations at the layered network naturally correspond to the structural phase transitions along the information curve. We believe that this new insight can lead to new optimality bounds and deep learning algorithms.
translated by 谷歌翻译